Analisis de Anomalias (outlayers) en mesas de sufragio como sustento de inpugnacion de votos por Fuerza Popular

Hector Jakson
Data Scientist

Índice

1. Introducción

Las ultimas elecciones presidenciales 2021 disputadas entre el partido fuerza popular y peru libre ha traido consigo una serie de cuestionamientos y margenes ajustados en cuanto a los votos que definiieron al nuevo presidente del Peru ,es asi que el partido Peru Libre ha conseguido una diferencia no muy marcada en proporcion a su adversario, al cual le lleva ventaja de +40K votos a favor.

es asi que el partido fuerza popular ha planteado un recurso de inpugnacion(anulacion) de votos en mesas de sufragio en contra de Peru LIbre sustentando indicios de fraude. entre los sustentos la cual analizaremos, plantean que

Metodologia

supuestos

1.1 Análisis exploratorio

dataset csv con el total del universo de las mesas de sufragio obtenidas de la pagina oficial de la ONPE actualizado al 11-06-2021

seleccionamos las columnas de 0 a 19 , las cuales tienen informacion relevante para este analisis

agrupamos las mesas de votacion por departamento


1.2. Seleccion de caracteristicas

2. Visualización

Se procede a la visualizacion de los datos para analizar el comportamiento y distribución, para ello, tenemos librerías fundamentales para poder trabajarlo: MatPlotlib ,Plotly y Seaborn. Veamos algunas conclusiones sobre la distribución de nuestros datos.

2.2 Visualizacion de dispersion x mesas de sufragio

2.3 Box plot con Outlayers

se observa en el boxplot

2.4 Isolation Forest

isolation Forest es una método no supervisado para identificar anomalías (outliers) cuando los datos no están etiquetados, es decir, no se conoce la clasificación real (anomalía - no anomalía) de las observaciones.

Su funcionamiento está inspirado en el algoritmo de clasificación y regresión Random Forest. Al igual que en Random Forest, un modelo Isolation Forest está formado por la combinación de múltiples árboles llamados isolation trees. Estos árboles se crea de forma similar a los de clasificación-regresión: las observaciones de entrenamiento se van separando de forma recursiva creando las ramas del árbol hasta que cada observación queda aislada en un nodo terminal. Sin embargo, en los isolation tree, la selección de los puntos de división se hace de forma aleatoria. Aquellas observaciones con características distintas al resto, quedarán aisladas a las pocas divisiones, por lo que el número de nodos necesarios para llegar a estas observación desde el inicio del árbol (profundidad) es menor que para el resto.

Las anomalías son patrones de datos que tienen características de datos diferentes a las de las instancias normales. La detección de anomalías tiene una relevancia significativa y, a menudo, proporciona información procesable crítica en varios dominios de aplicaciones

valores observados 13866 , valores con anomalias

https://presentacionsep2021-actas-resultados-prod2.s3.amazonaws.com/AC/C45093/SEP/ACPREC4509307035892.PDF?X-Amz-Algorithm=AWS4-HMAC-SHA256&X-Amz-Credential=AKIAXQU6GNJSVXR2WUHM%2F20210617%2Fus-east-2%2Fs3%2Faws4_request&X-Amz-Date=20210617T052321Z&X-Amz-Expires=3600&X-Amz-SignedHeaders=host&X-Amz-Signature=fdb4f02a7992654ea10ebcbece2fd9631378d673abdb4b7192a005fe592325d5

Observacion de anomalia detectada

Tomanos una muestra donde se encuentran la mesa observada con anomalias y los agrupamos segun el departamento donde pertenece

se observa que el histograma y la distribucion presenta una distribucion casi normal

existe una clara tendencia creciente de votos a favor de PL , en el grafico se muestra que no existe un intervalo que haga un corte a la tendencia


Z-score

indica el número de estándar las desviaciones de una observación o dato está por encima o por debajo de la media

z score mide la desviacion de una observacion con respecto al universo

Valores con z-score positivos

valores con z-score negativos

Visualizacion de valores del Zscore por deparamtento

Conclusiones

En el analisis del universo los outlayers en las mesas de votacion con votos mayores a 200 a favor de PL son muy marcadas y tambien se observan datos dispersos (fig3) , esto podria ser prueba de que existio una manipulacion externa para la generacion de esos valores y favorecer a PL.

Pero analizando las muestras que generaron esos outlayers se observa que una de las muestras tomadas aleatoriamente sigue una tendencia creciente superior a la media del universo con una distribucion normal y poca dispersion que favorecieron a PL en cuanto a votos.

De lo contratio si estas mesas que generaron outlayers no tendrian una tendecia en cuanto votos y estarian muy dispersas seria indicio a discutir de que si existio manipulacion a favor de PL

Las puntuaciones del z-score no mostraron valores suficientemente altos para concluir a excepsion de Lima.

</HTML>